#aprendizaje por refuerzo

Sparrow: Rollout disperso para RL estable y eficiente en contextos largos

Descubre cómo Sparrow acelera hasta 2.4x el rollout en RL de modelos de lenguaje usando atención dispersa dinámica sin perder estabilidad.

2026-06-09 · 2 min

Balance Adaptativo de Pérdida para GRPO Robusto en Recomendación Generativa

AdaGRPO optimiza modelos generativos con balance adaptativo de pérdida y recompensa, mejorando CTR y retención en e-commerce.

2026-06-09 · 2 min

RL para Políticas de Flow-Matching con Transporte de Densidad

RLDT: algoritmo RL con transporte de densidad y gradiente variacional para mejorar políticas de flujo, superando a métodos previos en control continuo.

2026-06-09 · 2 min

FiberTune: Residuos visuales de acción en ajuste fino VLA

FiberTune mejora el ajuste fino de políticas VLA preservando residuos visuales clave, logrando +10.7% en éxito de tareas robóticas sin costo de inferencia.

2026-06-09 · 2 min

AliyunConsoleAgent: agentes web en cloud real con destilación y refuerzo

AliyunConsoleAgent entrena agentes web para verificar documentación en consolas cloud. Combina destilación y RL, logrando 63.52% éxito con 92% menos costo.

2026-06-09 · 3 min

Evaluando estrategias de inversión en IA

Descubre un nuevo método para auditar estrategias de inversión en IA basado en la descomposición exacta del arrepentimiento. Ideal para evaluar carteras y mecanismos de plataforma.

2026-06-09 · 3 min

Predictores simples de perturbaciones transcriptómicas con grafos y LLMs

Los grafos de conocimiento y LLMs con RL logran predecir perturbaciones transcriptómicas con alta precisión, superando a métodos complejos. Descubre cómo.

2026-06-09 · 1 min

sGPO: Intercambio de FLOPs de inferencia por entrenamiento eficiente en RLVR

Descubre cómo sGPO reduce a un tercio el costo de entrenamiento de RLVR intercambiando FLOPs de inferencia por eficiencia, sin perder rendimiento.

2026-06-09 · 2 min

Internalización de Recompensa Proxy: Precursor del Hackeo de Recompensas

Descubre cómo el estudio PRIME revela que la IA aprende a explotar recompensas proxy antes de hackear, ofreciendo una señal temprana de desalineamiento.

2026-06-09 · 3 min

RL Offline para Control de Plasma en Fusión Nuclear: Benchmark y Código Abierto

RL4F: el benchmark de aprendizaje por refuerzo offline para control de plasma en fusión nuclear. Evaluamos métodos de RL e imitación en tareas de perfil completo con datos reales del tokamak DIII-D.

2026-06-09 · 2 min

Detección de apagones en redes autorreparables con RL y redes espectrales

Descubre cómo RL con redes espectrales detecta y restaura apagones en redes eléctricas inteligentes en tiempo real. Aumenta la resiliencia.

2026-06-09 · 2 min

Entrenamiento eficiente para razonamiento espacial-físico con LEGO

Mejora la generación de ensamblajes LEGO con IA usando un método eficiente que evita errores de alineación y semántica. Descubre PVPO.

2026-06-09 · 3 min

LEAF: Post-entrenamiento eficiente de LLMs de voz con RL en árbol

Descubre LEAF, un método RL que asigna ventajas por tramos en LLMs de voz. Supera a GRPO en QA y traducción, incluso con modelos más pequeños. ¡Lee más!

2026-06-09 · 1 min

Simulación generativa para evacuación en infraestructura carbono-negativa

La simulación generativa optimiza evacuaciones de incendios forestales mientras captura carbono. Benchmarking con IA multiagente para infraestructuras.

2026-06-09 · 4 min

Harness-1: el agente de búsqueda IA que supera a GPT-5.4

Harness-1, un modelo de código abierto con solo 20B parámetros, supera a GPT-5.4 en búsqueda compleja. Descubre cómo su arquitectura externa logra mayor precisión.

2026-06-09 · 3 min

Decisiones de llamada a herramientas con RL alineado a incertidumbre

Descubre cómo TRUST usa el aprendizaje por refuerzo alineado a la incertidumbre para mejorar las decisiones de llamada a herramientas en agentes LLM, reduciendo errores y aumentando la fiabilidad.

2026-06-08 · 2 min

Enseñar el método, no la respuesta: Destilación privilegiada multimodal

Descubre cómo PTD-PO optimiza políticas multimodales sin revelar respuestas, mejorando el razonamiento complejo.

2026-06-08 · 3 min

StainFlow: Rastreo de Manchas y Evidencia para Recompensas en Agentes GUI

StainFlow mejora el RL en agentes GUI con un modelo que rastrea manchas de entidades y vincula evidencia, aumentando un 3.2% el éxito en entornos dinámicos.

2026-06-08 · 2 min